llm训练

SAPO去中心化训练：多节点协作让LLM训练效率提升94%

Swarm sAmplingPolicyOptimization，简称SAPO，这个名字听起来有点学术，但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够，要么效率太低。SAPO提出了一种去中心化的异步RL方案，让各个计算节点之